Nuevo método conecta representaciones sin recompensa con preferencias en RL offline
Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.